语音合成，一位在校生书写的讯飞传奇 | 总编专栏 | 自由微信

语音合成，一位在校生书写的讯飞传奇 | 总编专栏

2017-06-10 陈宗周 环球科学ScientificAmerican

本文是《环球科学》总编、社长陈宗周先生撰写的系列专栏“AI传奇”的第五回。通过该专栏，陈宗周先生将带领我们回顾AI在过去60年走过的风风雨雨，也前瞻AI将如何塑造人类社会的未来。

陈宗周是《环球科学》杂志社社长，《电脑报》创始人。

霍金又说话了，谈论AI前景与人类命运。面对这位伟大的科学家，他说的每句话，人们都会认真倾听。可是，霍金非常特殊，1985年之后已不能开口说话。他的深邃思想，是如何变成语音，传到我们耳中？这是AI的帮助，让他能用语言交流，甚至还能在讲演中倾谈。

读过《时间简史》、《果壳中的宇宙》，听过黑洞、宇宙大爆炸等宇宙学故事的人，都会或多或少知道霍金，他是一个传奇。物理学家、宇宙学家、思想家，许多重要学术头衔集中于他身上，各种荣誉雪片般飞向他。

他的传奇，还在于他非凡的人生经历。斯蒂芬·霍金（Stephen Hawking）1942年出生于英国，17岁进入牛津大学，后来转到剑桥大学学习宇宙学。21岁那年得了很少见的运动神经疾病，从此，他在轮椅上躺了50多年。

他仿佛一生都在挑战死神与命运，21岁时医生预测他的生命不会超过两年。两年后，他博士毕业。43岁那年，他到日内瓦开会患上肺炎，垂危中医生询问他妻子，是否考虑放弃生命维持器。妻子断然拒绝，把他转回剑桥的医院，切开气管挽救了他的生命，只是从此他再也不能说话了。

霍金被称为世界上最聪明的人之一，偏瘫在轮椅上，大脑却依然在高速运转，思想仍在奔流，深刻的见解，奇妙的想法源源不断涌出。不能说话怎么传达他的思想？包括语音合成在内的一系列AI技术，让霍金创造了不开口也能说话的奇迹。

语音合成器帮助霍金“说话”

起初，霍金使用运行于Apple II 电脑的语音合成器说话。他用手操作，以每分钟 15 个单词的速度与人交流。后来，电脑和语音合成器不断升级，英特尔公司一直为霍金提供技术支持。

但霍金控制手指运动的神经也在不断恶化。到 2008 年，霍金的手就不能使用敲击器了。解决办法是在霍金眼镜上安放“脸颊开关”，通过红外光来监测霍金的面颊肌肉是否收紧。此后，他可以只通过一块肌肉来上网、写邮件、写书和说话。

霍金的交流能力仍然在不断下降，到 2011 年，他一分钟只能说出一、两个单词。于是他写信向“摩尔定律”发明者、英特尔公司创始人之一的戈登·摩尔求助。

2012 年 1 月 8 日，在霍金 70 岁的“宇宙状态”生日聚会上，来了一群英特尔的人机交互专家。而此时的霍金，连自己的这次重要活动都无法出席。

AI和霍金本人共同创造的奇迹又出现了。软硬件升级后效果良好，程序会在眼前屏幕上显示一个键盘，同时还配有单词预测算法，根据上下文的联系提供相应单词，供霍金选用。当光标逐行逐列自动扫过屏幕和键盘时，霍金可以用脸颊开关让光标停止在选中的单词上，用键盘完成操作。还可以控制窗口中的鼠标，操作其他软件。霍金又可以上网、写论文、说话了，甚至还可以用 Skype进行网络视频通话。

随着他身体变化，霍金的专用人机交互系统还在不断调整，试验过不少新技术。今天我们看到霍金出现在讲演中时，坐在轮椅中的他，总是被一堆AI设备包围，没有AI就没有霍金的声音。霍金语音被称为“完美的保罗” ，是他和机器共同制造的完美之声。

霍金说话的故事，是语音合成历史的一部分。

语音合成发展史

语音合成又称文本语音转换（Text to Speech，TTS）技术，顾名思义，是把文本信息转化成语音信息。相对于语音识别 (Automatic Speech Recognition, ASR)，它被认为是比较简单的技术。语音合成的历史，似乎也是一种印证。人的语音，本质上是发音器官震动，产生声波传出。模仿人声，最古老的方法是使用乐器。到19世纪，就可以用机械方法产生语音了。

进入电子时代的1939年，贝尔实验室H· 杜德利（H . Dudley）制作出第一台电子合成器，这是用共振峰原理制作的语音合成器，而共振峰技术至今还在使用。1960年瑞典科学家G·范特(Gunnar Fant) 的著作《语音产生的声学理论》，建立了现代语音分析、合成的理论基础。理论极大推动了语音合成技术的进步，1980年，D·克拉特（D. Klatt）设计出串/并联混合型共振峰合成器，已经可以模拟不同的嗓音。20世纪80年代末，基音同步叠加时域波形修改（PSOLA）算法被提出，较好地解决了语音段的拼接问题。

20世纪90年代，随着计算和存储能力大幅度提升，基于大语料库的单元挑选与波形拼接合成方法出现，可以合成出高质量的自然人语音。

20世纪末，可训练的语音合成方法（Trainable TTS）提出，使系统规模大大缩小，适合嵌入式设备应用，满足多语种语音合成需求。

进入21世纪，语音合成飞速发展，在达到真人说话水平后，开始关注音色、情感等，使合成的声音更自然和有个性。

到20世纪90年代，语音合成已经可以商业应用。今天全球有名的两家语音公司正是在这段时候相继创立。这就是分别在1992年和1999年创立的Nuance和科大讯飞。两家公司都脱胎于大学，前者是斯坦福大学，后者是中国科技大学。两家公司起步都是从语音合成开始。

为什么当年研发和生产销售实力雄厚的IT大厂商没有迅速进入语音合成市场? 这令人有点奇怪。一种可能的解释是，语音识别更有挑战性和战略意义，是必须占领的竞争制高点。所以，当大公司的精兵强将在语音识别战场鏖战而没有很快看到商业化战果的时候，从语音合成出发的创业者却快速打开了语音市场。

技术实际上没有简单的。任何一项技术，如果深挖下去，都有无穷的开拓空间。各种技术之间很多也都有联系，从研究和商业的角度，都可以互相转化、融合。语音合成和语音识别的技术和市场本来就联系紧密，好像进入一个套房，敲开大门，进入房间就容易了。Nuance和科大讯飞两家语音公司实际上都是从语音合成起步，延伸到语音处理的全产业链。

Nuance的故事我们上一回已经简单讲过了，由于技术壁垒已经不复存在，而靠此垄断的它，现在情况很不妙。后起的讯飞却渐入佳境，更值得关注。

刘庆峰与科大讯飞

讯飞这家中国最大的语音公司，也是国内第一家由在校学生创办而后来上市的公司。写下这一传奇的学生，名字叫刘庆峰。

刘庆峰1973年出生，安徽泾县人。17岁考入中国科技大学。19岁时因专业成绩突出，破格进入学校与国家智能计算机研究开发中心共同设立的“人机语音通信实验室”参与科研。22岁就成为该实验室承担的863项目”KD系列汉语文语转换系统”的主要负责人。他的 “基于LMA模型的语音合成器”、“基于数字串外推的韵律构建模型”、“听感量化”等语音合成新方法，都是在学生期间完成。他研制的中文语音合成系统，在国内外权威评比中关键指标均名列第一。也是在学生期间，他被称为“在中文语音合成技术研究上做出了国际领先成果”。

刘庆峰与科大讯飞

沿着这条路，刘庆峰可能成为顶尖的语音科学家。但就在念博士的第二年，他选择了另一条路。1999年，他带领十几位同学在校创业，讯飞公司在那一年的12月份诞生。

他最初的志向是要“让计算机象人一样开口说话”。讯飞公司把他和学校的语音合成科研成果迅速转化为产品，并不断发展。很快MP3、电子书、GPS导航器、玩具等等消费电子产品中，都内置讯飞的语音合成模块，华为、中信、神州数码等系统提供商，也采用了讯飞的语音组件。各种中文语音合成应答服务场合，机器的声音越来越美妙，越来越逼近真人，甚至还可以模仿使用者喜欢的名人，这都是讯飞语音合成系统在背后支持。在中文语音合成市场上，讯飞已经占有80%的份额。

讯飞在语音合成技术上深耕，不仅中文语音合成是全球最好，并且多语种合成也做到了全球领先。2006年开始，讯飞参加权威语音合成竞赛“暴风雪挑战赛”（Blizzard Challenge ）。这项大赛有卡耐基梅隆大学、爱丁堡大学、IBM研究院、微软亚洲研究院等世界一流机构参加，讯飞连续11年夺冠。2016年比赛主题是英语的故事级语音合成，要求声情并茂，难度很大。讯飞是全球唯一让英语语音合成超过普通人说话水平的机构。

刘庆峰要“让计算机象人一样开口说话”的理想已经实现了，但是讯飞的脚步并没有停留在语音合成。2010年4月，苹果收购语音识别技术提供商siri。讯飞也果断进入移动语音识别领域并迅速取得成功。在2010年10月底，讯飞语音云发布，移动语音输入第一版面世，讯飞用自己语音技术的深厚积累，在中文语音识别领域突破。到第二年10月，iPhone4S发布时，已经有语音合成功能的Siri，还不能支持中文语音，中国的苹果用户用上中文版Siri，还要等到2012年10月。这时，讯飞的语音交互系统，已经牢牢占领了中文市场。

讯飞对深度学习同样敏锐， 2010年就开始了深度神经网络语音识别研究，并且在2011年上线首个深度神经网络中文语音识别系统。深度学习全面用于讯飞语音处理，与国外同行基本没有时差。微软研究院负责语音识别的邓力博士是中国科技大学校友，2010年到 2012年间接受侯建国校长邀请访问了科大和科大讯飞。邓力是最早把深度学习引用语音识别领域的人，他到处推广深度学习的方法并进行学术讨论，他在中国的这些交流也是开始于科大。所以，邓力评价，科大讯飞的深度学习技术确实在中国是非常早就已经开始应用，只稍滞后于微软。

2016年9月13日，第四届国际多通道语音分离和识别大赛（CHiME）的结果在谷歌公司揭晓，讯飞取得本届赛事全部三个项目的最好成绩，讯飞中文语音识别保持领先的同时，在英语语音识别方面向国际同行发起冲击。

从语音合成出发的讯飞公司，目标是发展成为全球AI领先企业之一。刘庆峰在2017年两会期间建议，中国要尽快组建AI联盟，目标高远。这家语音行业龙头企业，也是中国AI企业发展的缩影。

百花齐放的语音交互

随着语音识别、自然语言理解和语音合成等技术的成熟，融合这些技术的语音交互应用也随之迅猛发展，近年来在智能市场出尽风头。

尽管语音交互较早就出现，但人们还是认为是苹果手机的Siri首次成功地将其推向大规模应用。

在2011年9月20日iPhone4S的发布会上，苹果的一位高管向iPhone发问：“你是谁？”。手机里的Siri立刻回答：“我是你忠实的助手。” 被媒体津津乐道渲染的Siri与人这一次经典问答，正好描述出Siri这类语音交互系统最重要的特征，它是人类的语音助手。所以，它常被形象地称为语音助理，也叫智能助理。

2010年4月，苹果以2亿美元收购了Siri 时，公司只有24人的开发团队。但苹果看好这一方向，收购后甚至在相当长的时间内把Siri技术封闭在苹果公司内，不开放与第三方的合作，作为自己的竞争利器。

作为语音助理，Siri现在有很多功能：陪你聊天，和你开玩笑，查询各种信息——还能通过屏幕朗读功能读出这些信息，用语音拨打电话、收发邮件，在备忘录里安排时间并按时提醒你，查找歌曲或者在听歌的时候让它告诉你是什么歌等等。Siri的功能，还在不断发展。

作为全球最大的搜索公司，谷歌当然不甘落后。在推出不太成功的语音助理Google Now和经历了Now团队全部出走事件之后，谷歌公司借助自己强大的AI能力，在2016年10月隆重发布新一代语音助理平台Google Assistant，支持谷歌旗下的智能软硬件，如聊天应用Allo、家居应用设备Google Home、可穿戴设备Android Wear、智能手机Pixel、Android汽车、Android电视等等。谷歌立志在Android操作系统的生态圈里，全面推广语音交互服务。

目前Google Assistant还只能支持英文和德文，2017年春天才开始支持三星、华为等少数手机厂商。但对比应用和测试了苹果Siri和Google Assistant个人和机构后的初步评价是，前者长于聊天和娱乐，而后者长于提供实际的工作和生活帮助。

相对于苹果、谷歌分别依托智能手机和搜索优势，亚马逊Alexa则借用自己的电子商务领地，迅速用智能音箱Echo打进语音交互市场，大玩多场景应用；微软Cortana(小娜)借助操作系统多年霸主地位，推出跨平台的语音交互系统。

2017年6月的苹果公司WWDC大会上，在大家的期望声中，苹果终于发布了智能音箱HomePod，正面迎接亚马逊Echo的挑战。利用自己 Siri平台的优势，苹果进一步用智能硬件产品HomePod全力捍卫语音交互市场。

在语音交互这一兵家必争之地，科技巨头们的大战，才刚刚开始。

中国的科技公司也不示弱，2015年5月，京东商城和讯飞合作推出叮咚(DingDong)智能音箱系统，虽然在听音乐、语音购物、语音控制家电、查天气等信息等场景应用方面还在追赶亚马逊，但在讯飞中文语音技术和AIUI语音智能交互平台的支持下，却有方言识别等独特的创新。

百度则依托自己的硅谷 AI 实验室（SVAIL）研发出基于深度学习的语音识别系统Deep Speech和语音实时合成系统DeepVoice。DeepVoice在同样硬件环境下，比谷歌2016年 9 月发布的原始音频波形深度生成模型 WaveNet 要快上 400 倍，而这个WaveNet在发布时，还被称为语音合成的革命性突破。

百度大气宣布，语音平台永远免费。还开放了大量语音专利，和海尔、京东、中兴、普天等 20 多家企业组建了智能语音知识产权产业联盟。百度在语音交互战场，志在必得。

中国语音交互市场，也将八仙过海，热闹非凡。

语言是人类最重要的交互工具，语音是语言的美丽外壳。AI催生出的这一场人机语音交互巨变，让聋子听音，使哑巴说话，万物语音互联的神奇世界，正在到来。

AI传奇专栏回顾：

第四回 | 助飞的双翼

《环球科学》6月刊现已上市，欢迎点击阅读原文购买

转载请联系 newmedia@huanqiukexue.com